5-Données spatiales

Thibaut FABACHER

GMRC

Objectifs

• Comprendre et analyser

• Rapport entre positionnement spatial et phénomènes

Particularités des données géographiques

• Données repérées dans l’espace (plan, altitude, temps)

• Données ponctuelles : distribution dans l’espace des observations

• Données continues

• Données surfaciques

Mesure de la localisation des données spatiales

• Coordonnées géographiques (et projections)

• Se munir d’une géométrie : euclidienne

• Base orthonormée

• Coordonnées (x; y)

• Polygone : ensemble de points (vertex) reliés par des segments définissant une région fermée

• Centroïde: barycentre de points

Données continues vs agrégées

###Données continues

• Donnée élémentaire : 1 évènement avec sa localisation

• Difficile à obtenir

Données continues vs agrégées

Données agrégées

• Donnée élémentaire : n évènements rattachés à une localisation

• Biais écologique : la conclusion sur des groupes est différente de la conclusion sur les individus

• Souvent, mélange de données continues (mesures d’exposition à points fixes) et de données agrégées par toujours au même niveau d’agrégation (populations communales, chômage cantonal)

Données régulières vs données irrégulières

• Données régulières:

• Données localisées sur une grille régulière de points

• Rare en santé

• Plus fréquent dans les données environnementales

• Données irrégulières

• Données peuvent a priori être localisées dans l’ensemble d’une région

• Fréquent en épidémiologie

Données ponctuelles

• Quantifier l’écart entre la distribution spatiale des observations et une distribution complètement aléatoire dans l’espace.

• Détections de cluster

Données continues

• Valeur en tout point du territoire concerné

• Géostatistique : prédiction de la valeur en un point non échantillonné

Données surfaciques

• Observations liées à des localisations fixes

• PIB par région, nombre de cancers par départements. ..

Représentation des données géographiques

• Les cartes :

• Super outil de communication

• Idéal pour les données spatiales

• Superposition de différents fonds et variables

• Attention aux interprétations

Exemple

  • Données ozone de R

  • Mesure de concentration d’ozone en différents point à New York

x y median
-74.03 40.22 59
-74.6 40.56 58
-74.71 40.78 90
-74.14 40.66 80
-74.26 40.65 50
-74.17 40.7 47

Exemple

  • point de mesure

Exemple

  • point de mesure et valeur

Exemple

  • ajout des limites des régions

Exemple

• Points de mesure et valeurs et états

Exemple

• Plus lisible, mais perte d’information

Exemple

• Des données ponctuelles aux données agréées, mais perte d’information

Exemple

• autre possibilité : heatmap

Sémiologie cartographique

• Ensemble de règles classique permettant de transmettre le plus clairement possible l’information correcte grâce à une image cartographique

choroplèthe

  • Représentation de données relatives

  • Discrétisation des données

  • 3 – 5 classes

  • Méthodes : quantiles, mêmes amplitudes…

Systèmes de projection

Systèmes de projection

Systèmes de projection

En pratique (1)

• Utiliser les packages sf, cartography, ggplot, leaflet

• Avoir des objets spatiaux (shapesfiles)

• Granularité particulière

• Attribuées des données à ces objets spatiaux

Ressource R

En pratique (2)

• Vérifier la projection des données (« st_crs ») en France :

Lambert 93

• Définir la représentation graphique

Cheatsheet

Différence avec analyse classique

  • Données agrégées à une échelle géographique adaptée

  • Absence d’indépendance entre les observations

Analyse spatiale

• Dépendance spatiale :

- lorsque la valeur de l’observation i influence la valeur de l’observation j voisine

• Hétérogénéité spatiale:

- l’influence des variables explicatives sur la variable dépendante dépend de la localisation dans l’espace

Mesurer l’importance des effets spatiaux

• Indices d’autocorrélation spatiale

• Lissage spatial

• Régression géographiquement pondérée

Indices d’autocorrélation spatiale

• Indices mesurant la dépendance spatiale d’une variable

• Les indices d’autocorrélation spatiale permettent de mesurer la dépendance spatiale entre les valeurs d’une même variable en différents endroits de l’espace.

• L’autocorrélation mesure la corrélation d’une variable avec elle-même

Indices d’autocorrélation spatiale

• Analyse statistique suppose indépendance des variables

• Autocorrélation spatiale doit être prise en compte pour l’analyse

Diagramme de Moran

• Permets une lecture rapide de la structure spatiale

• Y centrée en abscisse

• Valeur moyenne de la variable y pour les observations voisines

Dépendance spatiale globale

• Si une structure spatiale est mise en évidence:

• Quelle est la force de cette structure ?

Dépendance spatiale globale

• Si une structure spatiale est mise en évidence:

• Quelle est la force de cette structure ?

• Peut-elle être du au hasard?

• Test d’hypothèse nulle : hypothèse de randomisation / hypothèse de normalité

Dépendance spatiale globale

• hypothèse de randomisation

• Comparaison de la distribution observée à celle obtenue en réordonnant au hasard les données

Lissage spatial

• Le lissage spatial est une méthode d’estimation non paramétrique de la fonction d’intensité d’un processus ponctuel à valeurs dans R2 à partir uniquement d’une de ses réalisations.

• En pratique :

• Noyau : comment prendre en compte le voisinage

• Bande passante : taille du voisinage

• Traitement des effets de bord : comment sont prises en compte les frontières

Plusieurs méthodes de lissage

Lissage par splines

Utilisation des ces lissages dans des modèles

• Y~a+b1x1+s(space)

Régression géographiquement pondérées

Problématique des études géographiques

• Données agrégées : biais écologique

• Anonymisation des données

• Recueil des données